智能论文笔记

TUNet: A Block-online Bandwidth Extension Model based on Transformers and Self-supervised Pretraining

Viet-Anh Nguyen , Anh H. T. Nguyen , Andy W. H. Khong

分类：机器学习

2021-10-26

我们介绍了时间特征 - 方向线性调制（TFILM）模型的块在线变体，以实现带宽扩展。所提出的架构简化了TFILM的UNET骨干，以减少推理时间，并在瓶颈中采用有效的变压器来缓解性能下降。我们还利用自我监督的预测和数据增强，以提高带宽扩展信号的质量，并降低对下采样方法的灵敏度。VCTK数据集上的实验结果表明，所提出的方法优于侵入性和非侵入性度量的几个最近基线。预先训练和过滤增强也有助于稳定并提高整体性能。

translated by 谷歌翻译

DRG-Net: Interactive Joint Learning of Multi-lesion Segmentation and Classification for Diabetic Retinopathy Grading

Hasan Md Tusfiqur , Duy M. H. Nguyen , Mai T. N. Truong , Triet A. Nguyen , Binh T. Nguyen , Michael Barz , Hans-Juergen Profitlich , Ngoc T. T. Than , Ngan Le , Pengtao Xie

分类：计算机视觉

2022-12-30

Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.

translated by 谷歌翻译

Joint Self-Supervised Image-Volume Representation Learning with Intra-Inter Contrastive Clustering

Duy M. H. Nguyen , Hoang Nguyen , Mai T. N. Truong , Tri Cao , Binh T. Nguyen , Nhat Ho , Paul Swoboda , Shadi Albarqouni , Pengtao Xie , Daniel Sonntag

分类：计算机视觉

2022-12-04

Collecting large-scale medical datasets with fully annotated samples for training of deep networks is prohibitively expensive, especially for 3D volume data. Recent breakthroughs in self-supervised learning (SSL) offer the ability to overcome the lack of labeled training samples by learning feature representations from unlabeled data. However, most current SSL techniques in the medical field have been designed for either 2D images or 3D volumes. In practice, this restricts the capability to fully leverage unlabeled data from numerous sources, which may include both 2D and 3D data. Additionally, the use of these pre-trained networks is constrained to downstream tasks with compatible data dimensions. In this paper, we propose a novel framework for unsupervised joint learning on 2D and 3D data modalities. Given a set of 2D images or 2D slices extracted from 3D volumes, we construct an SSL task based on a 2D contrastive clustering problem for distinct classes. The 3D volumes are exploited by computing vectored embedding at each slice and then assembling a holistic feature through deformable self-attention mechanisms in Transformer, allowing incorporating long-range dependencies between slices inside 3D volumes. These holistic features are further utilized to define a novel 3D clustering agreement-based SSL task and masking embedding prediction inspired by pre-trained language models. Experiments on downstream tasks, such as 3D brain segmentation, lung nodule detection, 3D heart structures segmentation, and abnormal chest X-ray detection, demonstrate the effectiveness of our joint 2D and 3D SSL approach. We improve plain 2D Deep-ClusterV2 and SwAV by a significant margin and also surpass various modern 2D and 3D SSL approaches.

translated by 谷歌翻译

Learning to diagnose common thorax diseases on chest radiographs from radiology reports in Vietnamese

Thao T. B. Nguyen , Tam M. Vo , Thang V. Nguyen , Hieu H. Pham , Ha Q. Nguyen

分类：计算机视觉

2022-09-11

我们提出了一个数据收集和注释管道，该数据从越南放射学报告中提取信息，以提供胸部X射线（CXR）图像的准确标签。这可以通过注释与其特有诊断类别的数据相匹配，这些数据可能因国家而异。为了评估所提出的标签技术的功效，我们构建了一个包含9,752项研究的CXR数据集，并使用该数据集的子集评估了我们的管道。以F1得分为至少0.9923，评估表明，我们的标签工具在所有类别中都精确而始终如一。构建数据集后，我们训练深度学习模型，以利用从大型公共CXR数据集传输的知识。我们采用各种损失功能来克服不平衡的多标签数据集的诅咒，并使用各种模型体系结构进行实验，以选择提供最佳性能的诅咒。我们的最佳模型（CHEXPERT-FRECTER EDIDENENET-B2）的F1得分为0.6989（95％CI 0.6740，0.7240），AUC为0.7912，敏感性为0.7064，特异性为0.8760，普遍诊断为0.8760。最后，我们证明了我们的粗分类（基于五个特定的异常位置）在基准CHEXPERT数据集上获得了可比的结果（十二个病理），以进行一般异常检测，同时在所有类别的平均表现方面提供更好的性能。

translated by 谷歌翻译

Stag hunt game-based approach for cooperative UAVs

L. V. Nguyen , I. Torres Herrera , T. H. Le , M. D. Phung , R. P. Aguilera , Q. P. Ha

分类：机器人

2022-08-29

无人驾驶汽车（UAV）在许多领域都受雇于摄影，紧急，娱乐，国防，农业，林业，采矿和建筑。在过去的十年中，无人机技术在许多施工项目阶段中找到了应用程序，从现场映射，进度监控，建筑物检查，损坏评估和材料交付等等。尽管已经对无人机在各种施工相关的过程中的优势进行了广泛的研究，但关于提高任务能力和效率的无人机协作的研究仍然很少。本文提出了一种基于塔格狩猎游戏和粒子群优化（PSO）的多个无人机的新合作路径计划算法。首先，定义了每个无人机的成本函数，并包含多个目标和约束。然后，开发了无人机游戏框架，以将多功能路径计划制定到寻找回报优势均衡的问题。接下来，提出了基于PSO的算法来获得无人机的最佳路径。由三个无人机检查的大型建筑工地的仿真结果表明，在检查任务期间，提出的算法在为无人机形成的可行和高效飞行路径生成可行，高效的飞行路径上的有效性。

translated by 谷歌翻译

Interference Cancellation GAN Framework for Dynamic Channels

Hung T. Nguyen , Steven Bottone , Kwang Taik Kim , Mung Chiang , H. Vincent Poor

分类：机器学习 | 人工智能

2022-08-17

符号检测是现代通信系统中的一个基本且具有挑战性的问题，例如多源多输入多输出（MIMO）设置。迭代软干扰取消（SIC）是该任务的最新方法，最近动机的数据驱动的神经网络模型，例如深度，可以处理未知的非线性通道。但是，这些神经网络模型需要在应用之前对网络进行全面的时间量培训，因此在实践中不容易适合高度动态的渠道。我们介绍了一个在线培训框架，该框架可以迅速适应频道中的任何更改。我们提出的框架将最近的深层发展方法与新兴的生成对抗网络（GAN）统一，以捕获频道中的任何变化，并快速调整网络以维持模型的最佳性能。我们证明，我们的框架在高度动态的通道上显着优于最近的神经网络模型，甚至超过了我们实验中静态通道上的神经网络模型。

translated by 谷歌翻译

Enhancing Deep Learning-based 3-lead ECG Classification with Heartbeat Counting and Demographic Data Integration

Khiem H. Le , Hieu H. Pham , Thao B. T. Nguyen , Tu A. Nguyen , Cuong D. Do

分类：计算机视觉

2022-08-15

如今，越来越多的人被诊断出患有心血管疾病（CVD），这是全球死亡的主要原因。鉴定这些心脏问题的金标准是通过心电图（ECG）。标准的12铅ECG广泛用于临床实践和当前的大多数研究。但是，使用较少的铅可以使ECG更加普遍，因为它可以与便携式或可穿戴设备集成。本文介绍了两种新型技术，以提高当前深度学习系统的3铅ECG分类的性能，从而与使用标准12铅ECG训练的模型相提并论。具体而言，我们提出了一种以心跳回归数量的形式的多任务学习方案，以及将患者人口统计数据整合到系统中的有效机制。随着这两个进步，我们在两个大规模的ECG数据集（即Chapman和CPSC-2018）上以F1分数为0.9796和0.8140的分类性能，这些数据分别超过了当前最新的ECG分类方法，该方法超过了当前的ECG分类方法。甚至那些接受了12条铅数据的培训。为了鼓励进一步开发，我们的源代码可在https://github.com/lhkhiem28/lightx3ecg上公开获得。

translated by 谷歌翻译

Detecting COVID-19 from digitized ECG printouts using 1D convolutional neural networks

Thao Nguyen , Hieu H. Pham , Huy Khiem Le , Anh Tu Nguyen , Ngoc Tien Thanh , Cuong Do

分类：计算机视觉

2022-08-10

COVID-19大流行已经暴露了全球医疗服务的脆弱性，增加了开发新颖的工具来提供快速且具有成本效益的筛查和诊断的需求。临床报告表明，Covid-19感染可能导致心脏损伤，心电图（ECG）可以作为Covid-19的诊断生物标志物。这项研究旨在利用ECG信号自动检测COVID-19。我们提出了一种从ECG纸记录中提取ECG信号的新方法，然后将其送入一维卷积神经网络（1D-CNN）中，以学习和诊断疾病。为了评估数字信号的质量，标记了基于纸张的ECG图像中的R峰。之后，将从每个图像计算的RR间隔与相应数字化信号的RR间隔进行比较。 COVID-19 ECG图像数据集上的实验表明，提出的数字化方法能够正确捕获原始信号，平均绝对误差为28.11 ms。我们提出的1D-CNN模型在数字化的心电图信号上进行了训练，允许准确识别患有COVID-19和其他受试者的个体，分类精度为98.42％，95.63％和98.50％，用于分类COVID-19 vs.正常，与正常人分类， COVID-19与异常心跳和Covid-19和其他类别分别与其他阶级。此外，提出的方法还为多分类任务实现了高级的性能。我们的发现表明，经过数字化的心电图信号训练的深度学习系统可以作为诊断Covid-19的潜在工具。

translated by 谷歌翻译

An Accurate and Explainable Deep Learning System Improves Interobserver Agreement in the Interpretation of Chest Radiograph

Hieu H. Pham , Ha Q. Nguyen , Hieu T. Nguyen , Linh T. Le , Lam Khanh

分类：计算机视觉

2022-08-06

最近的人工智能（AI）算法已在各种医学分类任务上实现了放射科医生级的性能。但是，只有少数研究涉及CXR扫描异常发现的定位，这对于向放射学家解释图像级分类至关重要。我们在本文中介绍了一个名为Vindr-CXR的可解释的深度学习系统，该系统可以将CXR扫描分类为多种胸部疾病，同时将大多数类型的关键发现本地化在图像上。 Vindr-CXR接受了51,485次CXR扫描的培训，并通过放射科医生提供的边界盒注释进行了培训。它表现出与经验丰富的放射科医生相当的表现，可以在3,000张CXR扫描的回顾性验证集上对6种常见的胸部疾病进行分类，而在接收器操作特征曲线（AUROC）下的平均面积为0.967（95％置信区间[CI]：0.958---------0.958------- 0.975）。 VINDR-CXR在独立患者队列中也得到了外部验证，并显示出其稳健性。对于具有14种类型病变的本地化任务，我们的自由响应接收器操作特征（FROC）分析表明，VINDR-CXR以每扫描确定的1.0假阳性病变的速率达到80.2％的敏感性。还进行了一项前瞻性研究，以衡量VINDR-CXR在协助六名经验丰富的放射科医生方面的临床影响。结果表明，当用作诊断工具时，提出的系统显着改善了放射科医生本身之间的一致性，平均Fleiss的Kappa的同意增加了1.5％。我们还观察到，在放射科医生咨询了Vindr-CXR的建议之后，在平均Cohen的Kappa中，它们和系统之间的一致性显着增加了3.3％。

translated by 谷歌翻译

Slice-level Detection of Intracranial Hemorrhage on CT Using Deep Descriptors of Adjacent Slices

Dat T. Ngo , Hieu H. Pham , Thao T. B. Nguyen , Hieu T. Nguyen , Dung B. Nguyen , Ha Q. Nguyen

分类：计算机视觉

2022-08-05

表示技术的快速发展和大规模医学成像数据的可用性必须在3D医学图像分析中快速增加机器学习的使用。特别是，深度卷积神经网络（D-CNN）是关键参与者，并被医学成像界采用，以协助临床医生和医学专家进行疾病诊断。然而，培训深层神经网络，例如在高分辨率3D体积的计算机断层扫描（CT）扫描中进行诊断任务的D-CNN带来了强大的计算挑战。这提出了开发基于深度学习的方法，这些方法在2D图像中具有强大的学习表示形式，而是3D扫描。在本文中，我们提出了一种新的策略，以根据沿轴的相邻切片的描述来训练CT扫描上的\ emph {slice level}分类器。特别是，每一个都是通过卷积神经网络（CNN）提取的。该方法适用于具有每片标签的CT数据集，例如RSNA颅内出血（ICH）数据集，该数据集旨在预测ICH的存在并将其分类为5个不同的子类型。我们在RSNA ICH挑战的最佳4 \％最佳解决方案中获得了单个模型，其中允许模型集成。实验还表明，所提出的方法显着优于CQ500上的基线模型。所提出的方法是一般的，可以应用于其他3D医学诊断任务，例如MRI成像。为了鼓励该领域的新进步，我们将在接受论文后制定我们的代码和预培训模型。

translated by 谷歌翻译